Rozšíření bag-of-words modelu dokumentu: srovnání bigramů a 2-itemsetů

نویسندگان

  • Roman Tesař
  • Massimo Poesio
  • Václav Strnad
  • Karel Ježek
چکیده

Abstrakt. Jedním ze základních přístupů při kategorizaci textu je reprezentovat dokumenty jednotlivými slovy. Tento přístup je označován jako bag-of-words nebo také single words-based. Nicméně dalším obohacením této reprezentace je možné dosáhnout zlepšení výsledků klasifikace. V této práci jsme zaměřili svou pozornost na porovnání přínosu bigramů a 2-itemsetů, o které je rozšířen klasický bag-of-words model dokumentu. K experimentům využíváme standardní anglické textové korpusy Reuters-21578 a 20 Newsgroups. Ke klasifikaci je použit multinomial Naive Bayes, protože pro tuto klasifikační metodu a výše zmíněné korpusy byla publikována řada odborných publikací, se kterými naše dosažené výsledky srovnáváme. K výběru charakteristických položek (feature selection) využíváme 5 různých přístupů. Naše experimenty indikují, že použitím bigramů a 2-itemsetů je možné statisticky významně zvýšit úspěšnost klasifikace. Dále je v případě 2-itemsetů velmi důležité zvolit vhodný způsob výběru charakteristických položek. Na druhou stranu, v případě bigramů je možné dosáhnout zlepšení úspěšnosti klasifikace i použítím velmi jednoduchého přístupu. Z našich experimentů usuzujeme, že není příliš efektivní rozšiřovat reprezentaci textového dokumentu o 2-itemsety, protože pomocí bigramů je možné dosáhnout lepších výsledků a jejich generování je oproti 2-itemsetům méně náročné.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Komprese webového uložiště⋆

Abstrakt EGOTHOR je fulltextový systém, který stahuje z Webu dokumenty, indexuje je a umožňuje v nich vyhledávat. Vytvářené výsledkové listiny obsahují kromě URL dokumentu i výstřižek, který stručně vystihuje nalezený zásah. Tento výstřižek je možné téměř výhradně sestavovat ze znalosti celého originálního dokumentu (typicky ve formátu HTML), což implikuje nutnost uchovávat celé indexované doku...

متن کامل

Palarimetric Synthetic Aperture Radar Image Classification using Bag of Visual Words Algorithm

Land cover is defined as the physical material of the surface of the earth, including different vegetation covers, bare soil, water surface, various urban areas, etc. Land cover and its changes are very important and influential on the Earth and life of living organisms, especially human beings. Land cover change monitoring is important for protecting the ecosystem, forests, farmland, open spac...

متن کامل

Methods of modelling the pollutant emissions from the line emitters used in Slovak Republic

Metódy modelovania znečistenia ovzdušia od líniových zdrojov používané v Slovenskej republike V príspevku je prezentovaná aplikácia rozšírenia matematického modelu MODIM pre výpočet znečistenia ovzdušia od líniových zdrojov. Model bol rozšírený v súlade s metodikou US EPA -ISC a metodikou modelu CALINE odporučený úradom EPA USA. Pre upresnenie rozptylových podmienok konkrétnej lokality bol zave...

متن کامل

A Simple Hierarchical Pooling Data Structure for Loop Closure

We propose a data structure obtained by hierarchically pooling Bag-of-Words (BoW) descriptors during a sequence of views that achieves average speedups in large-scale loop closure applications ranging from 2 to 20 times on benchmark datasets. Although simple, the method works as well as sophisticated agglomerative schemes at a fraction of the cost with minimal loss of performance.

متن کامل

Patent Classification Experiments with the Linguistic Classification System LCS

In the context of the CLEF-IP 2010 classification task, we conducted a series of experiments with the Linguistic Classification System (LCS). We compared two document representations for patent abstracts: a bag-of-words representation and a syntactic/semantic representation containing both words and dependency triples. We evaluated two types of output: using a fixed cut-off on the ranking of th...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2007